自2016年成立以来,Alexa奖计划使数百名大学生能够通过Socialbot Grand Challenge探索和竞争以发展对话代理商。挑战的目的是建立能够与人类在流行主题上连贯而诱人的代理人20分钟,同时达到至少4.0/5.0的平均评分。但是,由于对话代理商试图帮助用户完成日益复杂的任务,因此需要新的对话AI技术和评估平台。成立于2021年的Alexa奖Taskbot Challenge建立在Socialbot Challenge的成功基础上,通过引入交互式协助人类进行现实世界烹饪和做自己动手做的任务的要求,同时同时使用语音和视觉方式。这项挑战要求TaskBots识别和理解用户的需求,识别和集成任务和域知识,并开发新的方式,不分散用户的注意力,而不必分散他们的任务,以及其他挑战。本文概述了Taskbot挑战赛,描述了使用Cobot Toolkit提供给团队提供的基础架构支持,并总结了参与团队以克服研究挑战所采取的方法。最后,它分析了比赛第一年的竞争任务机器人的性能。
translated by 谷歌翻译
Graph neural networks have shown to learn effective node representations, enabling node-, link-, and graph-level inference. Conventional graph networks assume static relations between nodes, while relations between entities in a video often evolve over time, with nodes entering and exiting dynamically. In such temporally-dynamic graphs, a core problem is inferring the future state of spatio-temporal edges, which can constitute multiple types of relations. To address this problem, we propose MTD-GNN, a graph network for predicting temporally-dynamic edges for multiple types of relations. We propose a factorized spatio-temporal graph attention layer to learn dynamic node representations and present a multi-task edge prediction loss that models multiple relations simultaneously. The proposed architecture operates on top of scene graphs that we obtain from videos through object detection and spatio-temporal linking. Experimental evaluations on ActionGenome and CLEVRER show that modeling multiple relations in our temporally-dynamic graph network can be mutually beneficial, outperforming existing static and spatio-temporal graph neural networks, as well as state-of-the-art predicate classification methods.
translated by 谷歌翻译
目的:用脑电图(脑电图)测量的稳态视觉诱发电势(SSVEP),在脑部计算机界面(BCI)拼写中产生不错的信息传输速率(ITR)。但是,文献中当前高性能的SSVEP BCI拼写器需要针对每个新用户进行系统适应的最初冗长而累人的用户特定培训,包括使用脑电图实验,算法培训和校准的数据收集(所有这些都是在实际使用之前系统)。这阻碍了BCI的广泛使用。为了确保实用性,我们提出了一种基于深神经网络(DNN)合​​奏的高度新颖的目标识别方法,该方法不需要任何特定于用户的培训。方法:我们从先前进行的脑电图实验的参与者中利用已经存在的文献数据集来训练全球目标标识符DNN,然后对每个参与者进行微调。我们将这种微调DNN的合奏转移到新的用户实例中,根据参与者与新用户的统计相似性确定k最具代表性的DNN,并通过集合预测的加权组合来预测目标角色。结果:在两个大规模基准和β数据集上,我们的方法可实现令人印象深刻的155.51位/分钟和114.64位/分钟ITR。代码可用于可重复性:https://github.com/osmanberke/ensemble-fnns结论:拟议的方法在[0.2-1.0]中的所有刺激持续时间上的所有最新替代方案都显着优于[0.2-1.0]秒。两个数据集。意义:我们的合奏-DNN方法有可能在日常生活中促进BCI拼写者的实际广泛部署,因为我们提供了最高的性能,同时无需任何特定于用户的培训即可立即使用。
translated by 谷歌翻译
最近,深度学习方法已经在许多医学图像分割任务中实现了最先进的表现。其中许多是基于卷积神经网络(CNN)。对于这种方法,编码器是从输入图像中提取全局和局部信息的关键部分。然后将提取的特征传递给解码器以预测分割。相比之下,最近的几部作品显示了使用变压器的卓越性能,可以更好地对远程空间依赖性进行建模并捕获低级细节。但是,对于某些任务无法有效替换基于卷积的编码器的某些任务,变形金刚作为唯一的编码器表现不佳。在本文中,我们提出了一个带有双重编码器的模型,用于3D生物医学图像分割。我们的模型是带有独立变压器编码器的U形CNN。我们融合了卷积编码器和变压器的信息,并将其传递给解码器以获得结果。我们从三个不同的挑战中评估了三个公共数据集上的方法:BTCV,MODA和DECHANLON。与在每个任务上有和没有变压器的最先进模型相比,我们提出的方法在整个方面都获得了更高的骰子分数。
translated by 谷歌翻译
自动对象检测器的本地化质量通常通过联合(IOU)分数进行评估。在这项工作中,我们表明人类对本地化质量有不同的看法。为了评估这一点,我们对70多名参与者进行了调查。结果表明,对于以完全相同的评分而言,人类可能不会认为这些错误是相等的,并且表达了偏好。我们的工作是第一个与人类一起评估IOU的工作,并清楚地表明,仅依靠IOU分数来评估本地化错误可能还不够。
translated by 谷歌翻译
深度学习对医学成像产生了极大的兴趣,特别是在使用卷积神经网络(CNN)来开发自动诊断工具方面。其非侵入性获取的设施使视网膜底面成像适合这种自动化方法。使用CNN分析底面图像的最新工作依靠访问大量数据进行培训和验证 - 成千上万的图像。但是,数据驻留和数据隐私限制阻碍了这种方法在患者机密性是任务的医疗环境中的适用性。在这里,我们展示了小型数据集上DL的性能的结果,以从眼睛图像中对患者性别进行分类 - 直到最近,底眼前图像中才出现或可量化的特征。我们微调了一个RESNET-152模型,其最后一层已修改以进行二进制分类。在几个实验中,我们使用一个私人(DOV)和一个公共(ODIR)数据源评估在小数据集上下文中的性能。我们的模型使用大约2500张底面图像开发,实现了高达0.72的AUC评分(95%CI:[0.67,0.77])。尽管与文献中的先前工作相比,数据集大小降低了近1000倍,但这仅仅是降低25%的性能。即使从视网膜图像中进行性别分类等艰巨的任务,我们也会发现使用非常小的数据集可以进行分类。此外,我们在DOV和ODIR之间进行了域适应实验。探索数据策展对培训和概括性的影响;并调查模型结合在小型开发数据集中最大化CNN分类器性能。
translated by 谷歌翻译
许多生物学和医疗任务需要描绘出图像体积的3D曲线结构,例如血管和神经突。这通常是使用通过最大程度地减少不捕获这些结构拓扑特性的体素损失函数来训练的神经网络完成的。结果,回收结构的连通性通常是错误的,这减少了它们的实用性。在本文中,我们建议通过最大程度地减少其2D预测的拓扑感知损失的总和来提高结果的3D连接性。这足以提高准确性并减少提供所需的注释培训数据所需的注释工作。
translated by 谷歌翻译
在几个机器学习应用领域,包括可解释的AI和弱监督的对象检测和细分,高质量的显着性图至关重要。已经开发了许多技术来使用神经网络提高显着性。但是,它们通常仅限于特定的显着性可视化方法或显着性问题。我们提出了一种新型的显着性增强方法,称为SESS(通过缩放和滑动增强显着性)。这是对现有显着性图生成方法的方法和模型不可或缺的扩展。借助SESS,现有的显着性方法变得稳健,可在尺度差异,目标对象的多次出现,分散器的存在以及产生较少的嘈杂和更具歧视性显着性图。 SESS通过从不同区域的不同尺度上从多个斑块中提取的显着图来提高显着性,并使用新型的融合方案结合了这些单独的地图,该方案结合了通道的重量和空间加权平均值。为了提高效率,我们引入了一个预过滤步骤,该步骤可以排除非信息显着图以提高效率,同时仍提高整体结果。我们在对象识别和检测基准上评估SESS可以取得重大改进。该守则公开发布以使研究人员能够验证绩效和进一步发展。代码可用:https://github.com/neouyghur/sess
translated by 谷歌翻译
在本文中,提出了一种基于进发神经网络的方法来减少单眼视觉探针算法漂移的方法。视觉轨道图算法计算连续摄像机框架之间车辆的增量运动,然后集成这些增量以确定车辆的姿势。提出的神经网络减少了车辆的姿势估计中的误差,这是由于特征检测和匹配,摄像机固有参数等不准确而导致的。这些不准确性传播到对车辆的运动估计,从而导致大量估计误差。降低神经网络的漂移基于连续的摄像头框架中特征的运动来识别此类错误,从而导致更准确的增量运动估计值。使用KITTI数据集对拟议的漂移减少神经网络进行了训练和验证,结果表明,所提出的方法在减少增量方向估计中的误差方面的疗效,从而减少了姿势估计中的总体错误。
translated by 谷歌翻译
这项研究采用无限脉冲响应(IIR)图神经网络(GNN),有效地对智能网格数据的固有图形网络结构进行建模,以解决网络攻击本地化问题。首先,我们通过数值分析有限脉冲响应(FIR)和IIR图过滤器(GFS)的经验频率响应,以近似理想的光谱响应。我们表明,对于相同的滤波器顺序,IIR GF可以更好地近似所需的光谱响应,并且由于其合理类型的滤镜响应,它们也与较低阶GF的近似值相同。其次,我们提出了一个IIR GNN模型,以有效预测总线上的网络攻击的存在。最后,我们在样本(SW)和BUS(BW)水平的各种网络攻击下评估了模型,并将结果与​​现有架构进行比较。经过实验验证的是,所提出的模型的表现分别优于最先进的FIR GNN模型,分别在SW和BW定位方面分别优于9.2%和14%。
translated by 谷歌翻译